En finir avec le mythe de la donnée brute

A l’occasion de la semaine européenne de l’open data (Open Data Week) à Nantes la semaine dernière, j’ai traité de la sensibilisation du grand public aux données, et par extension aux données ouvertes (open data). Il y a notamment été question d’en finir avec le mythe de la donnée brute. Extrait et complément à cette intervention.

« Je fume donc je vis ? »

Tout commence lors de la dernière rentrée scolaire, la première pour mon fils. L’année de sa naissance son prénom – Nathan – figurait parmi les plus populaires au niveau national. J’étais donc surpris de constater qu’il était le seul petit garçon à s’appeler ainsi dans l’école maternelle de notre quartier rennais. Il y avait bien plusieurs Maxime et Quentin, mais un seul Nathan, pourquoi ? Et si, par hasard, ce prénom était beaucoup moins populaire à Rennes qu’ailleurs en France, à Paris ou Nantes par exemple ?  

La liste des prénoms les plus populaires fait partie des données ouvertes par ces trois villes. C’est en cherchant le nombre total de naissances que j’ai trouvé une curiosité. Paris propose cette donnée sur son portail open data, l’INSEE aussi. Mais … les deux chiffres ne coincident pas ! Comment expliquer ce décalage entre deux faits que j’imaginais pourtant bruts ? La ville recense toutes les naissances ayant eu lieu sur son territoire (c’est-à-dire dans les maternités, les hôpitaux, les rames de métro ou ailleurs) alors que notre institut statistique national comptabilise lui les nouveaux-nés au domicile de leur mère.

Si une femme domiciliée à Montrouge accouche dans une maternité parisienne, son enfant – quel que soit son prénom ! – sera comptabilisé à Paris (selon la Ville) et à Vanves (selon l’INSEE). Pour la seule année 2010, il y a ainsi un décalage de plus de 10 000 naissances (un quart du total). Il y a donc deux méthodes de calcul : qui a tort, qui a raison ?

1- La donnée brute n’existe pas

Je pense que l’open data devrait intègrer une dimension plus critique vis-à-vis des données ouvertes et réutilisées. Il me semble indispensable de comprendre l’origine des données et les buts initiaux de la collecte. Pourquoi cette donnée existe-t-elle ? A quoi et à qui sert-elle initialement ? Car, soulignons-le, avant la ré-utilisation il y a l’utilisation tout court.

Pour revenir à notre exemple, personne n’a raison ou tort d’appliquer sa propre méthode de calcul. Si l’INSEE retient comme critère le domicile de la mère c’est pour mieux refleter la réalité démographique des territoires – après tout, dans le cadre du recensement on comptabilise la population selon leur lieu d’habitation, pas seulement leur lieu de naissance.

J’ai pris conscience, avec mes modestes moyens, de ce que les chercheurs en sciences sociales savent depuis fort longtemps (lire à ce sujet le commentaire argumenté de Jérôme Denis sur Internet Actu) : il n’y a pas plus de fait brut que de données brutes. Une donnée est toujours le résultat d’une intention, d’une méthode de calcul, de la volonté de représenter ou de mesurer une certaine partie de la réalité. La donnée ne résume pas le Monde qu’elle cherche à décrire.

2- Pour une critique de la donnée

Quiconque met les mains dans le cambouis des données ouvertes se rend très vite compte qu’il est indispensable de faire un détour par les «cuisines» de la data avant d’envisager toute réutilisation sérieuse (d’où l’importance d’ailleurs de la documentation des jeux de données). L’exemple de la comptabilisation des naissances n’est pas une exception, je pense au contraire que c’est une règle.

Savons-nous par exemple que la comptabilisation des morts sur la route n’est pas la même selon les services de l’Etat concernés. On pourrait pourtant penser qu’un décès c’est tout de même un fait brut par excellence : soit tu es mort, soit tu es vivant point barre (troisième possibilité : tu es dans un vieux clip du défunt roi de la pop). Et pourtant les services ne le comptabilisent pas de manière identique : certains recensent les personnes décédées sur le lieu-même de l’accident, d’autres prennent en compte les décès intervenus dans les 3 jours suivants. Pour la DDE (direction départementale de l’équipement) ou pour le SAMU, être mort ne veut pas tout à fait dire la même chose !

Etre critique de la donnée c’est donc essayer de comprendre pourquoi et comment l’information initiale est collectée et à quoi elle sert. Ensuite, c’est accepter l’idée que les données ne nous racontent pas tout, bref remettre en cause le dogme de la toute puissance de la donnée.

Un dernier exemple pour nous en convaincre : certaines collectivités publient la liste des subventions aux associations de leur territoire dans une optique de transparence. Ces données ont été collectées dans un but précis : permettre la délibération des conseils municipaux qui attribuent ces aides. On a donc un fichier avec le nom d’une association, un montant, un numéro de délibération. Comme l’a montré l’expérience menée par Bug , cette donnée ne nous permet de mesurer le soutien de la ville au secteur associatif, ni de mesurer si certaines associations sont «sous perfusion» de subventions publiques (en effet on ne dispose pas de leur budget global et l’on ne sait donc pas si l’aide représente 10% … ou 80% des ressources de la structure).

Etre critique de la donnée ce serait donc aussi parfois s’interroger : qu’est-ce que cette donnée ne nous raconte pas ?

Les données ne sont donc pas aussi neutres que l’on voudrait nous le faire croire. Mais il faudrait, pour être plus complet, intégrer aussi les effets de la donnée et les phénomènes de rétroaction. On a par exemple récemment discuté de l’effet de renforcement des classements des lycées ou des hôpitaux publiés par la presse. Les parents d’élèves qui le peuvent vont choisir le meilleur lycée pour leur enfant, renforcant ainsi le phénomène initial. Ignorer les effets potentiels de la donnée et de sa divulgation c’est faire preuve d’une grande naïveté.

3- La visualisation nous sauvera tous ?

La visualisation et l’infographie sont-elles des solutions pour faciliter l’appropriation et la compréhension des données, notamment les plus complexes, par le grand public ? La dataviz est à la mode c’est sûr (et leur histoire est très riche, comme en témoigne la présentation de Gaëtan Gaborit lors de l’Open Data Week). Mais nous sauvera-t-elle tous pour autant ?

Le site GapMinder permet depuis des années de visualiser simplement des statistiques mondiales liés à la santé, l’économie, le développement, … La vidéo de son créateur Hans Rosling lors de la conférence TED a marqué les esprits et comptabilise plus de 4 millions de vues. Gapminder a fait de l’open data avant l’heure : on peut y télécharger les jeux de données «brutes» pour créer ses propres visualisations. L’ambition du site se résume dans sa promesse : «Unveiling the beauty of statistics for a fact-based world view».

« Je fume donc je vis » ?

Le graphique que j’ai produit met en relation la part des fumeurs dans la population et l’espérance de vie à la naissance (les données sont issues de l’OMS et datent de 2005). Mon tableur favori m’a proposé de tracer la courbe de corrélation entre ces deux variables.  On peut ainsi constater que, dans les pays où l’on fume le plus, l’espérance de vie est la plus élevée.

Peut-on pour autant remettre en question la nocivité du tabac à partir de ce graphique ? Ce qui est en jeu ici c’est la différence entre corrélation et causalité… Il me semble que dans ce cas la visualisation, plutôt que de nous éclairer sur la réalité aurait tendance à nous embrouiller (ou, dans le cas d’espèce, à nous enfumer).

L’infographie a parfois cet effet pervers d’anihilier tout sens critique. Ainsi celle présentant le baromètre de l’open data en France, infographie qui a connu un grand succès en ligne. L’image nous explique, carte de France à l’appui, que 19 acteurs publics ont lancé leurs portails open data. Viennent ensuite les résultats de l’observatoire et notamment la phrase suivante : «3% des acteurs ont libéré au moins 4 jeux de données sur le volet budgétaire». De prime abord j’ai trouvé cela bizarre, ce que m’a confirmé ma calculette : 3% de 19 acteurs celà fait 0,57 acteur. Donc, cette infographie nous dit : «0,57 acteur ont libéré au moins 4 jeux de données budgétaires». Qu’est-ce que celà peut bien vouloir dire ? Qu’un seul acteur a libéré au moins 8 jeux de données ? 😉

4 – Comment sensibiliser le grand public ?

Force est de constater que les dispositifs d’animation actuels de l’open data ont du mal à atteindre le grand public. Les concours et les appels à projets ne visent bien souvent qu’une cible particulière, celle des développeurs réutilisateurs. Les cartoparties ou les ateliers de chasse aux données adressent un public plus large mais ne sont cependant pas suffisantes.

Développer un sens critique de la donnée passe sans doute par l’exposition des conditions de sa production… C’est non seulement en visitant cette «fabrique des données», mais aussi en mettant soi-même les mains dans le cambouis que l’on peut espérer faciliter une plus large appropriation.

8 réflexions au sujet de « En finir avec le mythe de la donnée brute »

  1. Merci pour ce papier qui illustre si bien l’ampleur de la question et qui montre surtout qu’entrer dans la cuisine des données (comme à l’époque dans celle des laboratoires scientifiques) ne veut en aucun cas dire les discréditer, mais au contraire comprendre les conditions qui font leur force, spécifier les risques qu’il y a à nier celles-ci et identifier à la fois les opportunités qu’elles représentent et les re-production dont elles doivent faire l’objet pour une ré-utilisation pertinente et efficace.

  2. En effet la donnée brute ne vaut pas grand chose sans la science de la statistique, qui elle-même ne vaut pas grand chose sans la science sociale (ex. : faire la différence entre une corrélation et une causalité), qui elle-même peut être « manipulée » par la science politique, puis par la communication, etc. Au moins l’ouverture des données permet à qui veut (qui peut) de « remonter le fil » des raisonnements et de se faire son propre avis. D’où l’importance de la pédagogie et de l’enseignement sur le traitement et l’appropriation des données. Il s’agit bien de démocracie et d’égalité. Certainement pas de vérité scientifique.

  3. Hé hé 🙂 Ce que tu dis de la donnée brute en tant que donnée créée dans le cadre d’une « interprétation », on peut aussi le dire de réalités qui sont construite et partagées. J’ai tenté de le dire à Laval (http://prezi.com/x7vr0q-6pmbk/vric-mixed-reality/) , et je suis ravi de tout propos inclinant vers une « ingénierie inverse » qui relativise tel ou tel « fait » ou « information » absolu afin de comprendre comment il est généré, partagé et représenté. Cependant, cela ne retire aucun attribut de puissance à cette information (ni à une réalité partagée), car sa puissance peut résider moins dans le fait qu’elle soit « scientifiquement » exacte (et donc dans un cadre de représentation) que dans ce qu’elle provoque comme possibles,et rétroaction.
    Bizarrement, tout le monde aime se dire qu’il touche de l’absolu ou du vrai (en plus, a-poétique, genre un nombre 🙂 On marche mieux sur du plat, alors on en fabrique.

  4. Article intéressant qui démontre effectivement que la donnée, cela veut tout et rien dire. Et que son exploitation ne peut pas se faire sans contexte.

    Néanmoins, je n’adhère pas avec le titre qui n’a pas grand chose à voir avec le fond du sujet. La donnée brute correspond, en général, à la notion d’une donnée la plus proche de sa mesure ou de sa génération. Elle n’est pas forcément croisée ou agrégée. Elle existe toute simplement.

    Certains défenseurs de l’opendata lutte pour que cette donnée originelle soit libérée en premier par soucis de transparence et de parce qu’on ne peut pas préjuger de son exploitation future.

    La donnée brute est la donnée source.

  5. Simon, ton article ouvre un autre débat : celui de la compatibilité entre des jeux de données produits par des acteurs territoriaux différents pour créer des vrais services hyperlocaux à l’échelle nationale, voir européenne. La question sous-jacente à traiter est celle de l’interopérabilité des jeux de données entre producteurs.

  6. Ping : Les data en forme » OWNI, News, Augmented

  7. Vos observation m’inspire un autre constat : dans un grand nombre de cas (comme celui concernant le recensement des prénoms), la donnée brute est une donnée privée. Rendre anonyme une donnée, c’est déjà la traiter, et donc introduire un premier biais.

  8. Votre raisonnement autour de la critique de la donnée me fait penser à la critique des sources historiques. En méthodologie historique, il y a plusieurs types de critiques quand on est confronté à une source (ici, la donnée) :
    – la critique externe : pour la donnée ouverte, il s’agirait des questions de format, de la licence, ce qui est lié au support même de la donnée,
    – la critique interne : la critique du contenu de la donnée (les informations, ce qui est dit et ce qui, au contraire, n’est pas précisé),
    – la critique de provenance : l’origine de la source (quel service l’a produite, le parti pris, l’angle de rédaction/saisie de la donnée)
    – la critique de portée : les destinataires internes de la source (ex : un service a commandé une étude : quelles demandes dans les cahiers des charges pour produire la donnée, quel angle demandé pour l’étude?) ou les destinataires externes (ex : les réutilisateurs de la donnée).
    Ces éléments pourraient être compilés dans les métadonnées, faire l’objet d’un fichier .txt compris dans le zip de téléchargement ou directement dans les informations sur le portail.

    Cette méthodologie critique qui est la base du travail de l’historien (mais aussi des journalistes pour ne citer qu’eux) pourrait s’appliquer à la critique des données ouvertes. Les données sont mises en ligne sur une plateforme/portail mais avant d’avoir une nouvelle histoire par leur réutilisation, elles ont déjà une histoire dans le création (ce que vous disiez très bien).

    La quasi-totalité des livres d’histoire ont une préface où l’on connaît les intentions et le parti pris de l’écrivain qui a produit le travail d’interprétation. Une source historique peut être traitée avec plusieurs angles d’approches : ex : une source d’archive ne va pas être interprétée de la manière par un historien de l’économie et un historien de l’histoire sociale. Va-t-il avoir une interprétation marxiste ou bourdieusienne? La préface, dans un livre d’histoire, aide à comprendre les motivations et les partis pris (certes de manière suggestive) mais elle éclaire le lecteur sur le contenu et le sens du service/de l’interprétation donnée.
    Il serait intéressant de penser à prendre en compte cette démarche lorsqu’un réutilisateur produit un service à partir de données ouvertes. Dans un souci de transparence et d’ouverture (l’essence même de l’open data), chaque producteur de services devrait faire en sorte que l’utilisateur de son service sache quel angle d’approche il a pris, ce qui l’a mené à utiliser tel ou tel jeu de données, etc. De nombreuses applications ou services naissent de la réutilisation de données mais sait-on vraiment quelles motivations et quel regard critique les producteurs de ces services portent sur les données qu’ils réutilisent?

    Il est important, il me semble, que les utilisateurs soient au courant de cette démarche car cela pourrait engendrer une dynamique dans la réutilisation et la contribution. Plus l’utilisateur a connaissance de la motivation qui a mené à la création d’un projet, plus il est en mesure de se l’accaparer et le faire sien.

Les commentaires sont fermés.